今天再來介紹一篇person re-id的論文。
ABD-Net: Attentive but Diverse Person Re-Identification
很多實驗證明attention是有效的,但是attention特徵通常不夠diverse(多元化),
意思就是attention機制傾向於將特徵集中在更緊湊的子空間,
但這樣對於算特徵距離,是不利的,因為會分布得太緊密。
因此,作者認為,更理想的特徵embedding應該是attentive和diverse兼具的:
attentive 目的在糾正錯位、消除背景干擾,並注重身體外觀的具判別力的局部區域。
diverse 鼓勵特徵之間有較低的相關性,從而更好地匹配,並可能使特徵空間更加全面。
提出一個Attentive但是Diverse的架構,叫做ABD-Net
Attentive:作者整合了兩種的注意機制
CAM有助於實現channel之間的feature level的訊息聚合
PAM則可捕獲身體和部位位置的空間感知。
並且它們被發現是互補的,並且完全有利於Re-ID。
在CNN中的高層的卷積層比較跟語義相關,並且通常是類別相關的,就是有分組
他們假設在Re-id中,有些high-level channel會share相似的語義,例如前景人,背景..
因此CAM的作用就是去將這些相似語義的channel群組的資訊互相聚合。
先把CxHxW的input feature map, reshape 成 NxC 和 CXN,
然後相乘然後經過softmax得到channel affinity matrix(CxC),
再乘原本的CxN,變回原本一樣大小CxHxW,有點權重的感覺。
最後在把每個element加起來,得到output。
PAM跟CAM很類似,但是他是希望能聚合空間中的語義相關訊息,
首先將輸入特徵映射A(CxHxW) 分別輸入三個卷積層,
以生成特徵映射B, C, D(CxHxW),
然後計算pixels affinity matrix S,他是NxN,和CAM相反,
其他部份計算和CAM類似,最終也生成輸出相同大小的feature map。
那Diverse的部分,
這邊是參考CVPR2017的re-id方法SVD-Net,
SVD-Net的作者認為,全連接層權重的作用可以看做一組向量投影,
當權重直接相關性較高時(可以理解為權值冗餘),特徵差異小,直接導致檢索中距離差異小,無法獲取差異化的特徵。
作者提出用SVD進行降維操作,提高權重的正交性,因為正交就會線性獨立,從而提高檢索性能。
本篇作者提出兩個module,
O.F.:作用在feature space,減少可直接有利於匹配的特徵相關性;希望能多多參考其他特徵,看廣一點。
O.W.:作用在卷積層的weight,鼓勵filter多樣性並提高學習capacity。
和其他方法相比,在DukeMTMC上提升蠻明顯的。